7.4 随机向量的互依性

我们认为随机向量的各个分量是相互联系的, 而不是自变量、因变量那种单方面依赖性. 我们希望从一组数据中看出其中起作用的指标, 以此来进行降维.

1 主成分分析

考虑随机向量 X=(X1,,Xp)T, 对它做正交变换. 令 Y=UTX, U 是正交阵, 希望 Y 的协方差阵简单, 如对角阵, 此时容易衡量 Y 各个分量的作用.
现在假设 X 的总体二阶矩已知. 设 CovX=Σ. 则 (1.1)CovY=UTCovXU=UTΣU=Λ, 这里 Λ=diag(λ1,,λp), λ1λp=0. 如果 rankΣ=r, 则 λr>λr+1=0, 这里 λiΣ 的特征值. 记 U=(u1,,ur,ur+1,,up), 则 uiΣ 对应 λi 的特征向量: Σui=λiui.

主成分

Xp 维随机向量, U 正交, Y=UTX 协方差如 (1.1), 则称 yii 个主成分, λii=1rλi 是对应的贡献率, i=1kλii=1rλi 是前 k 个主成分的累计贡献率.

由于 Yi=uiTX, 所以主成分对应 Σ 的一个特征向量. Yi 的方差 Var(Yi)=uiTΣui=λi 反映了 Yi 的变异. 由于 Y~=(Y1,,Yr)T 的分量互不相关, Y~ 的变异由 λ1,,λr 反映, 贡献率的概念刻画了 Yi 的变异的地位; 如果累计贡献率已经接近 100%, 则后面的那些主成分就可以直接舍去, 从而将问题从 p 维降到 k 维. 一般地, 设定门槛为 85%.

我们有另一种理论解释 X 的信息为什么在 Xr 个主成分里. 考虑 Xj 的线性预测 b1TX,,bkTX 满足非退化条件[1], 要求预测的均方误差最小: tj(BTX)=minβRkE(XjβTBX)2,j=1,,p. 我们有

定理 1.1

u1TX,,ukTX 是关于 X 的前 k 个主成分. 记 U1=(u1,,ur), 则 j=1ptj(U1TX)=minrankB=kj=1ptj(BTX).

X~=U1Y~, 这里 Y~=(Y1,,Yk)T, 我们有X~i=j=1kuijYj,Var(X~i)=j=1kuij2λjXi=j=1puijYj,Var(Xi)=j=1puij2λj. 从而 X~i 的方差是 Xi 方差的一部分, 所占比例为 j=1kuij2λjj=1puij2λj. 这里看出 uij2 同样影响显著, 称 uijXiYj 上的载荷.

应用中, 考虑标准化主成分, 也即让 Yi 除以标准差 λi, 使 Var(Yiλi)=1. 记 fi=Yiλi, 则 Covf=Ik. 由 X~=U1(λ100λk)f=U1Λ12f, 可得 Xi 在标准化主成分 fj 上到载荷为 uijλj. 记 aij=uijλj, 有 Var(X~i)=j=1kaij2, Var(Xi)=j=1paij2. 因此对标准化主成分, 载荷的意义更明显. 事实上, Σ=R相关矩阵时, aij=ρ(Xi,Yj).
还可以考虑旋转 f, 即以 k 阶正交阵 Γ 去作用. 令 g=ΓTf, 则有 X~=U1Λ12Γg, 则 Var(X~i)=j=1kaij2. 但这时 Xigj 上的载荷变为 bij=t=1kaitγtj, 其中 γijΓ(t,j) 元. 适当选取 Γ 有利于对问题做出更好的统计解释.

在实际问题中, 改为样本协方差阵 Σ^ 或样本相关矩阵 R^. 不过此时特征值会变为随机变量, 让推导更加困难.

1.1 几何解释

考虑 n 个观察点 x1,,xn. 取重心 1ni=1nxi 为原点, 也即假定 X=(x1T,,xnT)T, xij1nk=1nxik 代替 xij, 这样样本协方差阵为 1n1XTX1n1C. 现在找一条直线过原点, 方向为 u, uTu=1, 使 x1,,xn 到直线的距离平方和最小. 容易看出 xi 到直线的距离平方为 xiTxixiTuuTxi, 因此问题变为极小化 Sn(X,u)i=1n(xiTxixiTuuTxi)=tr(XTXuTXTXu), 上式的极小值点是 XTX 对应最大特征值的特征向量 u1. 因此 u1TX 适合作为第一主成分.

p=2 时, 容易与线性回归的几何意义作区别.

2 因子分析

假设一个班级的 6 个学生的成绩可以分解成 x=(x1x6)=(a1a6)f+(ε1ε6). 这里 fx公共因子, εi特殊因子. 一般地, (2.1)xp×1=Ap×qfq×1+ε, 这样假定是合理的:

现在计算 Covx=AAT+Δ, 可见 Var(xi)=j=1qaij2+σi2, 从而 xi 的方差由两部分组成: 一部分是 A 的第 i 行向量 a(i) 的范数 ||a(i)||2, 另一部分是第 i 个特殊因子的方差 σi2. 记 hi2=||a(i)||2, 表明公共因子对 xi 的影响大小, 称为贡献.
考虑 fjx 的影响, 记 gj2=i=1paij2, 称 gj2fjx贡献. 与 PCA 类似, aijxifj 上的载荷.
使 gj2 最大的 fj 是最重要的公共因子, 使 hi2 最大的 xi 是最依赖公共因子的指标. 而载荷 aijVar(xi)=Var(fi)=1 时恰好为 ρ(xi,fj). 实际工作中, 希望载荷更加集中. 习惯上称 A载荷矩阵. 方便起见, 假设 g12gq2.

2.1 载荷矩阵的求法

假设 x 已经标准化, 每个分量方差为 1, Covx=R 是相关矩阵. 假设 R,Δ 已知, 称 R=RΔ=AAT约相关阵. 此时要求 R0. 利用 谱分解: R=j=1rλjujujT,r=rankR, 其中 ujR 对应 λj 的规范化特征向量, λ1λr>0. 于是取 aj=λjujA=(a1,,aq). 这样的 A 还满足 ATA=diag(λ1,,λq): gj2=λj.

在上述情形下, 因子分析和主成分分析看似没啥区别, 但是主成分分析是找 R 的前 k 个特征向量, 而在因子分析中则从 R 出发.

接下来用 R=AAT 来求 A. 根据 这里, 如果 BBT=AAT, 则 B=AΓ. 这里 Γq 维正交阵, 因此 Im(A) 唯一, 称为因子空间, 且任一解都可以由上面已经求得的 A 经过旋转得到, 此时贡献 hi2 不改变, 但因子本身 gj2 会改变. 此时把模型 (2.1) 记为 (2.2)x=(AΓ)(ΓTf)+ε=By+ε, 这里 y=ΓTf. 类似主成分分析, 我们希望各个因子的贡献"分散", 也即较多载荷接近零, 这样可以实现降维. 注意到 j=1qgj2=tr(AAT) 不受旋转影响, 因此贡献的分散程度可以由各个列的样本方差体现. 例如 q=2, B=AΓ=(b11b12bp1bp2). 为了消除符号不同的影响, 考虑 bij2hi2 代替 bij. 令Sj=1pi=1p(bij2hi21pi=1pbij2hi2)2,j=1,2,S=S1+S2.
寻求 Γ, 使 S 极大化, 这样旋转称为方差最大的正交旋转.

3 典型相关

现在讨论两个随机向量的互依性. 回忆我们引入了相关系数的概念来刻画两个随机变量的互依性; 引入了多重相关系数来刻画 Y,X 的线性依赖性: ρY,X=maxρ(Y,aTX). 现在对于两个随机向量, 进行推广

典型相关系数

X=(X1,,Xp)T, Y=(Y1,,Yq)T 是两个随机向量, aTX,bTY 是两个线性函数, 方差都是 1. 记相关系数 ρ(aTX,bTY). 如果 Var(a1TX)=Var(b1TY)=1, 且 ρ(a1TX,b1TY)=maxVar(aTX)=Var(bTY)=1ρ(aTX,bTY),ρ(a1TX,b1TY)X,Y典型相关系数, a1TX,b1TYX,Y典型相关变量. 简记 ρ1=ρ(a1TX,b1TY).

从实际看, ρ1 反映了 X,Y 综合指标的最大相关程度.

如果知道 X,Y 的联合二阶矩, 容易推导典型相关系数/变量. 设 Cov(XY)=(ΣXXΣXYΣYXΣYY),ΣXX,ΣYY>0,ρ(aTX,bTY)=aTΣXYb=bTΣYXa. 下面用 Lagrange 乘子法求解: 令 φ(a,b)=aTΣXYbλ2(aTΣXXa1)μ2(bTΣYYb1),{φa=(φa1,,φap)T=ΣXYbλΣXXa,φb=(φb1,,φbq)T=ΣYXaμΣYYb.
φa=0, φb=0, 则 λ=μ=aTΣXYbρ, 且 W1a=ΣXX1ΣXYΣYY1ΣYXa=ρ2a,W2a=ΣYY1ΣYXΣXX1ΣXYb=ρ2b.
这里, W1,W2 有相同非零特征值. 上式表明 ρ2 是它们的特征值, 格子有对应的特征向量 a,b. 设 W1,W2 非零特征值个数为 r (包括重数), 则 φ(a,b)r 个稳定点, r 个局部极值 |ρ1||ρr|>0. 这里 |ρ1| 就是我们要求的典型相关系数, 对应的 a1,b1 给出了典型相关变量 a1TX,b1TY (注意我们约定了 Var(a1TX)=Var(b1TY)=1). 这里 a1,b1 除了方向相反, 可以确定, 一般典型相关系数取正值.
实际应用中, 我们考虑多个综合指标. 第 i 组就是 |ρi|, aiTX,biTY.

可以在 a1,,ar 后添加 ar+1,,ap, 使 {Σ12a1,,Σ12ap}Σ12W1Σ12 的正交规范化特征向量集, 类似有 br+1,,bq. 记 A=(a1,,ap), B=(b1,,bq), 有 Cov(ATX)=ATΣXXA=Ip,Cov(BTX)=BTΣYYB=Iq. 由于 aiTΣXYbj=ρjaiTΣXXai=0, 又有 Cov(ATX,BTY)=Δ. 除了主对角元 ρ1,,ρr 外, 其余皆为 0, 从而 (3.1)Cov(ATXBTY)=(IpΔΔTIq). 因此寻求典型变量实际上就是线性变换原变量, 得到简单的协方差结构.
实际应用中, 可以抛弃较小的 ρi, 设较大的为前 k 组. 记 A1,B1 是对应的前 k 列, 则可以用 A1TX,B1TY 来近似反映.

另一个统计解释是, 用 Y 的线性函数预测 aiTX.. 使得均方误差最小的线性预测是 aiTX^=aiTEXρibiTEY+ρibiTY. 事实上, 设 C0+CTY 是想求的预测. 由 (1.2), (3.2)aiTX^=aiTEXaiTΣXYΣYY1EY+aiTΣXYΣYY1Y. 由于 ΣYXai=ρiΣYYbi, 从而得到 (3.2).

典型变量的一个应用是给出 X,Y 的公共因子, 即 Z: {X=C1Z+ε1,Y=C2Z+ε2, 且有 Cov(Z,ε1)=0,Cov(Z,ε2)=0,Cov(ε1,ε2)=0.
事实上可取 Z=A1TX, A1A 的前 r 列, B1B 的前 r 列. 注意到 ATΣXXA=Ip, BTΣYYB=Iq, 有 ΣXXAAT=Ip,ΣYYBBT=Iq.
因此如果记 Λ=Cov(A1TX,B1TY), 有 X=ΣXXAATX=ΣXXA1A1TX+ΣXXA2A2TX,Y=ΣYYB1B1TY+ΣYYB2B2TY=ΣYYB1B1TΛA1TX+ΣYYB1B1T(YΛA1TX)+ΣYYB2B2TY.
Z=A1TX, C1=ΣXXA1, C2=ΣYYB1B1TΛ, ε1=ΣXXA2A2TX, ε2=ΣYYB1B1T(YΛA1TX)+ΣYYB2B2TY, 就有 X,Y. 并且容易验算

Cov(A1TX,ΣXXA2A2TX)=A1TΣA2A2TΣXX=0,Cov(A1TX,ε2)=A1TΣXYB1B1TΣYYA1TΣXXA1ΛB1TΣYY+0=ΛB1TΣYYΛB1TΣYY=0,Cov(ε1,ε2)=Cov(ΣXXA2A2TX,YΣYYB1B1TΛA1X)=0,

ZX,Y 的公共因子.

之前的旋转因子法在典型相关中不适用, 因为任何旋转都会破坏 (3.1).


  1. 也即如果 B=(b1,,bk), 则 Cov(BTX)=BTΣB>0. ↩︎